The Case That A.I. Is ThinkingChatGPT 並無內在生命,但它似乎清楚自己在談論什麼。本文即將刊登於2025 年 11 月 10 日的《紐約客》雜誌,印刷版標題為“Open Mind”。作者:作家兼電腦程式設計師詹姆斯·薩默斯從 2018 年開始為《紐約客》撰稿。當一種“理解的假象”逼真到何種程度時,你才會不再將其稱為假象?人工智慧公司Anthropic的首席執行官達里奧·阿莫代伊預測,到2027年,在生物學、數學、工程學、寫作等領域“比諾貝爾獎得主更聰明”的人工智慧或許會投入使用。他設想數百萬個模型副本高速運轉,每個副本都在開展獨立研究,形成一個“資料中心裡的天才國度”。今年6月,OpenAI的薩姆·奧爾特曼撰文稱,人工智慧行業即將打造出“數字超級智能”。他斷言:“2030年代很可能會與以往任何時代都截然不同。”與此同時,大多數人目前日常接觸的人工智慧工具,讓人不禁想起微軟辦公軟體曾推出的“助手”Clippy——它實際上更像個愛糾纏的角色。Zoom的一款人工智慧工具會提示你向它提問“有那些會議破冰問題?”,或是指令它“寫一條表達感謝的短消息”。Siri擅長設定提醒,但在其他方面用處不大。我的一位朋友在Gmail中看到一個按鈕,上面寫著“致謝並講述趣聞”。他點選後,Google的人工智慧編造了一個關於他去土耳其旅行的有趣故事,而他從未去過那裡。人工智慧倉促且不均衡的推出,營造出一種迷霧氛圍,讓人很容易得出“這裡沒什麼值得關注——全是炒作”的結論。誠然,炒作確實不少:阿莫代伊預測的時間線帶有科幻色彩(人工智慧模型的改進速度並沒有那麼快)。但認為大型語言模型只是在隨意拼湊文字,同樣是一種一廂情願的想法。我過去曾認同這種觀點,也曾從“人工智慧與真正的智能或理解毫無關係”這一想法中尋求慰藉,甚至還為它的缺陷感到慶幸——就像在為人類“主隊”加油。後來,作為一名程式設計師,我開始在工作中使用人工智慧,因為擔心不這樣做就會落後。(我所在的僱主是一家貿易公司,對包括Anthropic在內的多家人工智慧公司有投資,也建立了合作關係。)許多人認為,編寫程式碼是人工智慧最擅長的領域;程式碼比散文更具結構性,而且通常能通過自動化方式驗證某個程序是否可行。我對人工智慧的看法很快發生了轉變。起初,我會諮詢人工智慧模型,而非自己去尋找資料;接著,我會讓它們處理一些獨立的小問題;最終,我把真正的工作——那些我整個職業生涯都在學習處理的工作——也交給了它們。我看到這些模型能在幾秒鐘內理解數千行程式碼中的複雜細節,它們能發現細微的漏洞,還能設計出複雜的新功能。後來,我被調到一個快速發展的團隊,該團隊旨在更好地利用人工智慧工具,並開發我們自己的工具。據說科幻作家威廉·吉布森曾提出,未來早已到來,只是尚未均勻分佈——這或許能解釋為何人工智慧似乎催生了兩種截然不同的群體:一種對此不屑一顧,另一種則為之著迷。在日常生活中,能預訂假期或申報稅務的人工智慧“代理”並不成功,但我的一些同事在編寫程式碼時,大部分工作都依賴人工智慧,有時還會同時運行多個程式設計代理。這些模型有時會犯低級錯誤,或陷入無意義的循環,但隨著我學會高效使用它們,曾經需要一個月完成的工作,現在一個晚上就能搞定。不久前,我在完全不懂如何開發iOS應用的情況下,做出了兩款iOS應用。我曾有一位上司說,求職面試應考察應聘者的優勢,而非糾結於其是否存在缺點。大型語言模型確實有很多缺點:眾所周知,它們會編造看似合理的虛假資訊;即便你出錯,它們也可能一味順從;簡單的謎題就能將它們難住。但我還記得,如今人工智慧模型所具備的顯著優勢——流暢的表達、自然的銜接、“理解”他人意圖的能力——在過去曾被視為難以實現的“聖盃”。當你親身體驗到這些優勢時,就會不禁思考:當一種“理解的假象”逼真到何種程度時,你才會不再將其稱為假象?今年夏天一個酷熱難耐的日子,我的朋友馬克斯和家人在公園遊玩。不知為何,兒童灑水器沒有開啟,而馬克斯的妻子之前向大家保證,她丈夫能修好它。面對滿臉通紅、年齡在六到七歲之間的孩子們,馬克斯走進工具棚,希望能找到一個顯眼的“開啟”開關。然而,他看到的卻是一堆錯綜複雜的舊管道和閥門。就在他準備放棄時,突然心血來潮,拿出手機,將灑水器的照片以及自己遇到的問題描述一起輸入ChatGPT-4o。人工智慧“思考”了片刻——也可能並沒有真正思考——但它隨即表示,馬克斯看到的是灌溉系統中常見的防回流裝置。它問馬克斯是否看到底部那個黃色的球閥,認為那個閥門很可能控制著水流。馬克斯按照提示操作,水流隨即噴出,公園裡頓時響起孩子們的歡呼聲。ChatGPT是在毫無意義地拼湊文字,還是真的理解了這個問題?這個答案或許能讓我們對“理解”本身有重要的認識。加州大學伯克利分校的神經科學教授多麗絲·曹(音譯)告訴我:“神經科學家必須面對這個令人清醒的事實:機器學習的進展,比神經科學在過去一百年間的任何發現,都更能讓我們瞭解智能的本質。”多麗絲·曹最知名的研究是破解恆河猴感知面部的機制。她的團隊成功預測出猴子看到特定面部時那些神經元會被啟動;更令人驚嘆的是,只要知道神經元的啟動模式,他們就能還原出對應的面部圖像。他們的研究借鑑了關於“人工智慧模型如何表徵面部”的相關成果。如今,她最喜歡問別人的一個問題是:“你從ChatGPT中獲得的最深刻洞見是什麼?”她表示:“我自己的答案是,我認為它徹底揭開了思考的神秘面紗。”關於我們如何走到如今這一步,最基礎的解釋大致如下:20世紀80年代,一小群認知心理學家和電腦科學家嘗試在機器中模擬思考過程。其中較知名的有戴維·魯梅爾哈特、傑弗裡·辛頓和詹姆斯·麥克萊蘭,他們後來在加州大學聖迭戈分校成立了一個研究小組。他們認為,大腦是一個龐大的網路,神經元以特定模式啟動,進而引發其他神經元群的啟動,如此循環往復;這種模式的動態變化就是思考。大腦通過改變神經元之間連接的強度來實現學習。關鍵在於,這些科學家通過建構人工神經網路,並應用一種名為“梯度下降”的簡單演算法來提高其預測準確性,從而模擬了大腦的這一學習過程。(可以將該演算法比作一個從山頂走向山谷的徒步者:要最終找到下山的路,一個簡單的策略就是確保每一步都朝著地勢更低的方向前進。)在大型網路中使用這類演算法的技術,被稱為深度學習。人工智慧領域的其他研究者曾懷疑,神經網路是否足夠複雜,能否應對現實世界的任務。但隨著網路規模不斷擴大,它們開始解決此前無法攻克的難題。過去,有人會花費整篇博士論文的篇幅,研究區分手寫數字或識別圖像中人臉的技術;而後來,深度學習演算法只需消化相關資料,就能掌握問題的核心細節,讓那些研究項目顯得過時。很快,深度學習在語音識別、翻譯、圖像描述、棋類遊戲等領域取得突破,甚至解決了蛋白質摺疊預測這一難題。如今最先進的人工智慧模型,是通過一種名為“下一個token預測”的技術,在網際網路的大量資料上訓練而成的。模型通過猜測接下來會出現的內容,再將猜測結果與實際出現的內容進行對比,以此完成學習。一旦猜測錯誤,神經元之間連接的強度就會調整,這正是梯度下降演算法的作用。最終,模型在文字預測方面變得極為精準,以至於看起來彷彿真的具備知識儲備,且表達富有邏輯。這一點值得我們思考:一群研究者致力於探尋大腦運作的奧秘,當他們建構的模型規模接近大腦大小時,模型開始展現出那些曾被認為只有大腦級智能才能實現的能力。難道他們真的找到了一直在尋找的答案?對於這種將人工智慧簡單化、理想化的解讀,人們難免會持反對態度。泰德·蔣曾有力地反駁過這一觀點,他在2023年初為本刊撰寫了一篇文章,標題為《ChatGPT不過是網際網路的模糊JPEG格式檔案》。他的言下之意帶有貶低意味:ChatGPT僅此而已。你把整個網際網路的資料輸入一個程序,它只是將這些資料不完美地“反芻”出來,就像一張照片經過多次複製後變得模糊——但它的表達能力足以讓你誤以為這個程序具備智能。今年春天,語言學家埃米莉·M·本德和社會學家亞歷克斯·漢納在合著的《人工智慧騙局》一書中,也提出了類似觀點。本德最知名的言論,是將大型語言模型描述為“隨機鸚鵡”。《大西洋月刊》的書評作者泰勒·奧斯汀·哈珀宣稱:“大型語言模型過去沒有、現在沒有、將來也永遠不會‘理解’任何事物。”這些模型“生成文字並非通過思考,而是基於統計規律,猜測下一個詞彙可能是什麼”。哈珀在這些技術層面的論點之外,還加入了道德層面的批判:人工智慧讓強者更富,消耗的能源加速了氣候變化,還導致勞動者被邊緣化。他最終得出結論:“人工智慧行業的根基就是一場騙局。”一位頂尖神經科學家認為,ChatGPT“徹底揭開了思考的神秘面紗”。但從道德層面反對人工智慧,或許最終比從技術層面反對更有說服力。哈佛大學認知科學家塞繆爾·J·格什曼並非人工智慧的盲目吹捧者,他告訴我:“‘隨機鸚鵡’這種說法早該過時了。只有最頑固的懷疑論者,才會否認這些系統實現了許多人曾認為無法實現的功能。”普林斯頓大學的認知神經科學家喬納森·科恩承認人工智慧存在侷限性,但他認為,在某些情況下,大型語言模型似乎模擬了人類大腦中一個龐大且重要的區域。科恩表示:“大致來說,大腦的新皮層就是一個深度學習機制。”相對於體型而言,人類的新皮層比其他動物大得多;而新皮層最大的物種——大象、海豚、大猩猩、黑猩猩、狗——也恰好是最具智能的物種。2003年,機器學習研究者埃裡克·B·鮑姆出版了一本名為《何為思考?》的書(我在大學圖書館的書架上偶然發現了它,書名瞬間吸引了我)。鮑姆論點的核心在於:理解即壓縮,壓縮即理解。在統計學中,若要理解圖表上的資料點,可以採用線性回歸技術,在這些點之間繪製一條“最佳擬合線”。如果資料中存在潛在規律——比如你在繪製鞋碼與身高的對應關係——這條最佳擬合線就能簡潔地呈現這一規律,並預測新資料點可能出現的位置。我們可以將新皮層理解為一種“提煉”工具:它從海量原始體驗(聲音、圖像及其他感官資訊)中提取核心,形成類似“最佳擬合線”的模型,用於進行預測。嬰兒探索世界時,會嘗試猜測玩具的味道,或是食物掉落到地上後會滾向何方。當預測出錯時,神經元之間的連接就會調整。久而久之,這些連接逐漸捕捉到資料中的規律,形成一個對世界的壓縮模型。人工神經網路與真實的神經網路一樣,也能對體驗進行壓縮。目前最優秀的開源人工智慧模型之一DeepSeek,能夠創作小說、提供醫療診斷建議,還能以數十種語言進行母語等級的交流。它是通過“下一個token預測”技術,在數太字節的資料上訓練而成的。但當你下載這個模型時,會發現它的大小僅為訓練資料的六百分之一。它就像是網際網路的“精華版”,經過壓縮後可以安裝在筆記型電腦上。泰德·蔣將早期版本的ChatGPT比作“網際網路的模糊JPEG”,這種說法有一定道理——但在我看來,這正是這些模型變得越來越智能的原因。蔣在文章中指出,若要壓縮一個包含數百萬道算術題的文字檔,你不會將其製成壓縮檔案,而是會編寫一個計算器程序。他寫道:“只有理解了文字內容,才能實現最高程度的壓縮。”或許,大型語言模型已經開始做到這一點。想到一個電腦程序真的能理解、真的能思考,人們可能會覺得反常,甚至反感。通常,我們認為“思考”是一種有意識的行為,比如像喬伊斯作品中那樣的內心獨白,或是像普魯斯特式白日夢那樣的感官記憶流動;也可能認為思考是一種推理過程:一步步解決問題。在討論人工智慧時,我們常常將這些不同類型的思考混為一談,導致判斷過於草率。有一種觀點認為,ChatGPT顯然不會思考,因為它顯然不會像普魯斯特那樣陷入遐想;另一種觀點則認為,ChatGPT顯然會思考,因為它解決邏輯謎題的能力比人類更強。但實際情況要微妙得多。我不認為ChatGPT有內在生命,但它似乎確實清楚自己在談論什麼。“理解”——即明白正在發生的事情——是一種未被充分重視的思考方式,因為它大多發生在無意識層面。印第安納大學認知科學與比較文學教授道格拉斯·霍夫施塔特常說,認知的本質就是識別。霍夫施塔特因《哥德爾、埃舍爾、巴赫:集異璧之大成》一書聞名,該書於1980年獲得普利策獎,探討了心智與意識的奧秘。霍夫施塔特經過數十年研究提出,“看作”是思考的核心。你將一塊色斑“看作”汽車,將另一塊色斑“看作”鑰匙扣;無論字母“A”以何種字型呈現,或是書寫得多麼潦草,你都能認出它。霍夫施塔特認為,同樣的過程也存在於更抽象的感知層面。國際象棋大師審視棋盤時,多年的經驗讓他能瞬間“看出”:白方的象處於弱勢;這個殘局很可能是平局。你看到河中的漩渦,就知道此處不宜過河;你意識到正在參加的會議是“皇帝的新衣”式的鬧劇;我將近兩歲的兒子發現,上午晚些時候推嬰兒車散步時,或許能有機會吃到可頌面包,於是便會提出相應要求。在霍夫施塔特看來,這就是智能的本質。霍夫施塔特是最早對人工智慧持“貶低態度”的人之一,我過去的懷疑態度也深受他的影響。他曾表示,大多數人工智慧研究與真正的思考毫無關係,21世紀初我上大學時,也認同這一觀點。但也有例外:他認為加州大學聖迭戈分校的研究小組很有研究價值,同時也欽佩一位不太知名的芬蘭裔美國認知科學家彭蒂·卡內瓦的成果——卡內瓦發現了高維空間數學的一些特殊屬性。在高維空間中,任意兩個隨機點可能相距極遠;但反常的是,每個點周圍都存在大量“鄰近點”,因此只要你足夠“靠近”某個點,就能輕鬆找到它。這讓卡內瓦聯想到記憶的運作方式。在1988年出版的《稀疏分佈式記憶》一書中,卡內瓦提出,思想、感官體驗和記憶可以表現為高維空間中的坐標。大腦似乎是儲存這類資訊的理想“硬體”:每段記憶都有一個獨特的“地址”,這個地址由你回憶時啟動的神經元決定。新的體驗會啟動新的神經元群,形成新的“地址”。兩個“地址”可能在多個方面存在差異,但在某些方面又具有相似性;一種感知或一段記憶,會觸發與之相近的其他記憶。乾草的氣味會讓你想起夏令營的回憶;貝多芬《第五交響曲》的前三個音符響起,你就會聯想到第四個音符;一個你從未見過的象棋棋局,會讓你想起過去的對局——並非所有對局,而是那些與當前棋局“相似”的對局。霍夫施塔特意識到,卡內瓦所描述的,本質上是一種“看作”機器。他在為卡內瓦著作撰寫的序言中表示:“彭蒂·卡內瓦的記憶模型讓我深受啟發,這是我首次看到有研究能讓我隱約感受到,理解大腦整體運作機制這一遙遠目標或許並非無法實現。”無論是喬伊斯式的內心獨白、普魯斯特式的遐想,還是邏輯推理,任何形式的思考都依賴於“相關事物在恰當的時機出現在腦海中”。正是通過這種方式,我們才能判斷自己所處的情境。後來,卡內瓦的著作逐漸被淡忘,霍夫施塔特本人的影響力也有所下降——除非他偶爾站出來批評某款新的人工智慧系統。2018年,他在談到Google翻譯及類似技術時表示:“這種方法存在一個核心缺陷,用一個詞就能概括:理解。”但2023年推出的GPT-4,徹底改變了霍夫施塔特的看法。他最近告訴我:“這些系統的某些表現讓我感到震驚,即便在十年前,這都是無法想像的。”最堅定的“貶低者”也無法再堅持原來的觀點:眼前的程序能達到專業水平的翻譯效果,能進行類比、即興發揮、歸納總結。我們憑什麼說它不具備理解能力?他說:“它們的行為與思考極為相似,你甚至可以說,它們在思考,只是方式與人類有所不同。”大型語言模型的核心,似乎正是這種“看作”機器。它們用一系列數字來表示每個詞在高維空間中的坐標——即“向量”。在GPT-4中,一個詞向量擁有數千個維度,這些維度描述了該詞與其他所有詞在相似度和差異度上的細微差別。在訓練過程中,每當大型語言模型出現預測錯誤,就會調整某個詞的坐標;在文字中同時出現的詞,在空間中會被調整得更接近。這就形成了一種極為密集的用法和語義表徵——在這種表徵中,類比變成了一個幾何問題。一個經典例子是:若取“巴黎”的詞向量,減去“法國”的詞向量,再加上“義大利”的詞向量,得到的結果最接近的向量就是“羅馬”。大型語言模型還能通過對圖像內容、氛圍甚至人物表情進行編碼,為圖像生成“向量”,編碼的細節足夠豐富,既能讓模型以特定風格重新繪製圖像,也能讓它寫出一段關於圖像的描述文字。當馬克斯在公園向ChatGPT求助解決灑水器問題時,這個模型並非只是在輸出文字。它會將管道的照片與馬克斯的問題描述一同壓縮成一個向量,這個向量捕捉了問題最核心的特徵。該向量就像一個“地址”,用於呼叫空間中相近的詞彙和概念;這些概念又會進一步呼叫其他相關概念,幫助模型逐步理解當前場景,並結合這些“在腦海中”的概念組織回答。幾個月前,我看到一篇對Anthropic研究員特倫頓·布裡肯的採訪。他曾與同事合作,深入研究該公司旗下系列人工智慧模型“克勞德”的內部機制(他們的研究尚未經過同行評審,也未在科學期刊上發表)。他的團隊發現了多組人工神經元,或稱“特徵”,這些特徵會在克勞德準備表達特定內容時被啟動。研究發現,這些“特徵”就像控制概念的“音量旋鈕”——把某個“旋鈕”調大,模型就會只圍繞對應的概念展開表述。(在一項類似“思維控制”的實驗中,研究人員調大了代表“金門大橋”的特徵;當一名使用者向克勞德索要巧克力蛋糕食譜時,模型給出的配料清單中竟包含“1/4杯乾霧”和“1杯溫海水”。)布裡肯在採訪中提到了Google的“Transformer架構”——這是建構神經網路的一套技術方案,目前主流的人工智慧模型都以其為基礎(ChatGPT中的“T”即代表“Transformer”)。他認為,Transformer架構核心的數學原理,與數十年前彭蒂·卡內瓦在《稀疏分佈式記憶》中提出的模型高度相似。人工智慧與人類大腦存在相似性,這值得驚訝嗎?畢竟,大型語言模型是人工神經網路,而其研發過程也有心理學家和神經科學家參與。更令人意外的是:當這些模型在反覆練習“預測詞彙”這種機械任務時,竟開始表現出與大腦相似的行為模式。如今,神經科學與人工智慧領域正逐漸交融,大腦研究專家甚至將人工智慧當作一種“模式生物”來使用。麻省理工學院的神經科學家埃夫莉娜·費多倫科就利用大型語言模型研究大腦處理語言的機制。她告訴我:“我從沒想過自己這輩子能研究這類問題,也從沒想過我們能擁有足夠先進的模型。”人們常說人工智慧是“黑箱”,但事實或許恰恰相反:科學家可以探測單個人工神經元的活動,甚至對其進行修改。普林斯頓大學神經科學家肯尼斯·諾曼表示:“擁有一個能體現人類智能理論的可運行系統,這是認知神經科學領域的夢想。”諾曼曾建構過海馬體(大腦中儲存情景記憶的區域)的電腦模型,但過去的模型過於簡單,他只能向模型輸入對人類思維的粗略模擬資料。他說:“現在,你可以給記憶模型輸入與給人類輸入的完全相同的刺激資訊。”萊特兄弟在早期研發飛機時曾研究鳥類。他們發現,鳥類會逆風起飛——儘管普通人可能會認為它們應該順風起飛;鳥類還會調整翼尖來保持平衡。這些發現為他們設計早期滑翔機提供了啟發。之後,他們建造了一個6英呎長的風洞,得以在精確控制的條件下測試多組人工機翼。此後,他們的滑翔機飛行實驗成功率大幅提升。有趣的是,直到他們成功造出可飛行的機器後,人們才真正弄明白鳥類飛行的原理。人工智慧讓科學家得以在“風洞”中研究“思考”本身。Anthropic的研究人員發表過一篇標題頗具爭議的論文——《論大型語言模型的生物學屬性》。他們觀察了克勞德對各類問題的響應過程,並描述了模型中的“電路”——即一系列特徵的連鎖反應,這些反應共同完成複雜的計算(呼叫正確的記憶是思考的第一步,而通過“電路”組合和處理這些記憶,或許就是思考的下一步)。長期以來,對大型語言模型的一項批評是:由於模型必須逐個生成“token”來構成回答,它們無法進行規劃或推理。但當你讓克勞德為一首詩續寫押韻的對句時,模型中的某個“電路”會先確定新句子的最後一個詞,以確保押韻,隨後再反向推敲整句內容。Anthropic的研究人員認為,這一現象證明他們的模型確實具備規劃能力。只要稍加觀察,你或許會第一次感覺到:我們能窺見“思維”的內在運作過程。不過,這種“窺見”需要極大的努力。諾曼告訴我:“我擔心的是,人們的態度從‘極度懷疑’一下子變成了‘完全不加防備’。還有很多問題有待解決。”我或許就是諾曼所說的這類人(或許我太容易被《稀疏分佈式記憶》與Anthropic模型之間的“相似性”打動)。在過去一兩年裡,我開始認同傑弗裡·辛頓的觀點。辛頓近期因在人工智慧領域的研究獲得諾貝爾獎,他在2020年對記者卡倫·豪表示:“深度學習將無所不能。”但我們也發現,模型並非越大越好。繪製“模型性能與規模關係”的曲線已開始趨於平緩。要找到模型尚未消化的高品質資料變得越來越難,且計算成本也日益高昂。今年8月,GPT-5發佈時,僅實現了小幅改進——這一巨大的失望甚至可能刺破人工智慧領域的投資泡沫。當下,我們需要一種“適度的懷疑”:既要正視如今人工智慧模型的能力,也不能認為所有難題都已解決。在這些待解難題中,最關鍵的或許是:如何設計出能像人類一樣高效學習的模型。據估算,GPT-4在訓練過程中接觸了數兆個詞;而兒童只需接觸數百萬個詞就能流暢表達。認知科學家表示,新生兒的大腦具備某些“歸納偏置”,這些偏置能加速學習過程(當然,大腦本身是數百萬年進化的產物——進化過程本身也可視為一種“訓練資料”的積累)。例如,人類嬰兒會默認“世界由物體構成”,且“其他生物擁有自己的信念和意圖”。當媽媽說“香蕉”時,嬰兒會將這個詞與媽媽正看著的整個黃色物體關聯——而非僅僅關聯物體的尖端或果皮。嬰兒還會進行“小實驗”:這個東西能吃嗎?那個東西能扔多遠?驅動他們的是慾望、好奇心、挫敗感等情緒。兒童總在嘗試做略微超出自己能力範圍的事。他們的學習之所以高效,是因為這種學習是“具身的”“自適應的”“有意識的”且“持續的”。或許,要真正理解世界,就必須親身參與其中。相比之下,人工智慧的“體驗”極其匱乏,甚至不配被稱為“體驗”。大型語言模型的訓練資料本身已經過高度提煉。加州大學伯克利分校的神經科學家多麗絲·曹告訴我:“我認為這些模型之所以能發揮作用,是因為它們借助了語言的力量。”語言就像“預先咀嚼過的體驗”,其他類型的資料則缺乏如此密集的語義資訊。哈佛大學認知科學家格什曼提出疑問:“為什麼在視訊資料推理領域,我們沒有看到類似的突破?目前的視覺模型在常識性物理推理方面仍存在困難。”深度思維公司近期推出的一款模型,能生成“正確混合顏料”“解決迷宮”的視訊,但視訊中也會出現“杯子撞擊後沒有碎裂反而彈起”“繩子被揉成一團卻形成結”等違背物理規律的畫面。曾任職於微軟研究院的認知神經科學家伊達·莫門內賈德做過一項實驗:她讓大型語言模型“虛擬參觀”一棟建築,隨後詢問模型關於建築內路線和捷徑的問題——這類空間推理對人類而言輕而易舉。但除了最簡單的場景,人工智慧要麼答錯,要麼會編造不存在的路線。她說:“它們真的會規劃嗎?其實不會。”在與神經科學家交流的過程中,我能感受到他們的一種擔憂:人工智慧行業的發展有些操之過急,缺乏深思熟慮。普林斯頓大學認知科學家布倫登·M·萊克告訴我,如果目標是打造與人類智能相當的人工智慧,那麼“我們目前的訓練方式是錯誤的”。人工智慧完成訓練後,其神經網路“大腦”就會被“凍結”。即便你告訴模型關於自己的一些資訊,它也不會調整內部神經元的連接方式,而是會採用一種簡單的替代方案:記錄一段文字(比如“使用者有一個學步兒童,正在學習法語”),並在你發出後續指令時參考這段記錄。人類大腦則會持續更新自身,關於這一點,有一個精妙的理論:睡眠時,大腦會將部分情景記憶“回放”給新皮層,以完成對新皮層的訓練。回放的記憶會在你的高維思維空間中留下“印記”;醒來後,你看待世界的方式會發生細微變化。人工智慧領域已對“飛速進展”產生依賴,且在經濟上投入巨大,以至於有時會假裝“進步是必然的”“已無科學問題可解”。但科學有一個棘手的特點:它有時會陷入停滯。矽谷或許會將人工智慧公司稱為“實驗室”,將部分員工稱為“研究員”,但從本質上講,該行業的文化是“工程導向”的——即“不管用什麼方法,先做出成果再說”。科恩表示:“機器學習領域的研究者很少關注認知科學的歷史,更談不上尊重,這一點令人震驚。”如今的人工智慧模型之所以能成功,得益於數十年前關於大腦的研究發現,但它們與大腦仍有本質區別。那些差異是“非核心的”,那些是“根本性的”?每個神經科學研究團隊都有自己偏愛的理論,而這些理論如今終於有了驗證的可能——這在過去是無法實現的。儘管如此,沒人指望能輕易找到答案。普林斯頓大學的諾曼表示,要解決人工智慧目前面臨的難題,“需要先精準找出模型在那些方面未能達到我們期望的智能水平,然後針對性地改進。而這一過程,仍需要人類科學家參與。”20世紀90年代,數十億美元被投入“人類基因組計畫”,人們認為基因測序或許能解決醫學領域最棘手的問題:癌症、遺傳病,甚至衰老。那是一個充斥著大話與自信的時代——多莉克隆羊誕生,《侏儸紀公園》上映,生物技術崛起,評論界開始討論“人類是否應該扮演上帝的角色”。但生物學家很快發現,現實遠比想像中複雜。我們沒有治癒癌症,沒有找到阿爾茨海默病或自閉症的病因。我們意識到,DNA只是生命故事的一部分。事實上,有人可能會說,生物學曾一度陷入“基因狂熱”——因為我們掌握了研究和理解DNA的技術,便過分關注DNA。但沒人會認為弗朗西斯·克里克錯了。1953年,他協助證實了DNA的雙螺旋結構,當天他走進劍橋的一家酒吧,宣稱自己“發現了生命的奧秘”。他和同事對“揭開生命神秘面紗”所做的貢獻,幾乎超過任何人。在他們的發現之後的數十年裡,科學領域取得了前所未有的豐碩成果,充滿活力。“DNA”成為家喻戶曉的詞彙,每個高中生都知道雙螺旋結構。如今,在人工智慧領域,我們再次陷入這樣一個“大話與自信並存”的時代。薩姆·奧爾特曼表示,計畫籌集5000億美元,在美國建造名為“星門”的新一代人工智慧資料中心叢集。人們討論“超級智能競賽”時,語氣莊重且急迫,這種態度有時顯得缺乏依據,甚至有些荒謬。但我猜想,阿莫代伊、奧爾特曼等人之所以發表這種“救世主式”的言論,是因為他們相信:智能的基本原理已經被破解,剩下的只是細節問題。甚至一些神經科學家也認為,我們已經跨越了一個關鍵的門檻。普林斯頓大學的尤里·哈森與科恩、諾曼、萊克是同事,他認為神經網路“或許是解釋認知的正確模型”。這種觀點既讓他感到興奮,也讓他不安。他說:“我的擔憂與大多數人相反。我擔心的不是這些模型與我們相似,而是我們與這些模型相似。”如果通過簡單的訓練技術,就能讓程序表現出人類般的行為,那或許人類並不像我們想像的那樣特殊。這是否也意味著,人工智慧不僅會在知識層面超越我們,還會在判斷力、創造力、洞察力上超越我們——並因此獲得超越人類的權力?令我意外的是,哈森告訴我,他“近來擔心我們可能真的會弄明白大腦的運作方式。對人類而言,探尋這個問題或許是一個巨大的錯誤”。他將人工智慧研究者比作20世紀30年代的核科學家:“對這些人來說,這是他們一生中最有趣的時代。與此同時,他們也清楚自己正在研究的東西,可能對人類產生嚴重影響。但出於求知慾,他們無法停止。”霍夫施塔特有一本我很喜歡的書,名為《流動的概念與創造性類比:思維基本機制的電腦模型》。上大學時,這本書讓我深受觸動。它的核心觀點是:“何為思考?”這類問題並非單純的哲學問題,而是有切實答案的。1995年該書出版時,霍夫施塔特和他的研究團隊只能隱約指出答案可能是什麼。回想這本書,我不禁好奇:看到人工智慧研究者或許已經實現了他所渴望的目標——用機械原理解釋思考的基本機制,霍夫施塔特會感到興奮嗎?但在我們的交談中,他卻顯得極為失望,甚至恐懼。他表示,當前的人工智慧研究“雖然印證了我的許多觀點,卻也剝奪了人類的獨特魅力”。“我年輕時,非常想知道創造力的基礎是什麼,想瞭解創造力的機制。這對我來說是一個聖盃。但現在,我希望它能一直是個謎。”或許,思考的奧秘比任何人想像的都要簡單——簡單到一個高中生,甚至一台機器,都能理解。 (邸報)